Weight Decay
# Tag:
- Source/KU_ML2
Weight Decay
weights를 학습 과정 중에 점진적으로 감소시키는 방법.
Regularization를 위해 사용되며, 데이터의 feature에 민감하게 반응해 Overfitting이 발생하는 것을 방지하기 위함이다.
Sigmoid가 그 예가 될 수 있는데, Sigmoid의 개형은 input이 0에 가까울수록 Linear함을 보이므로, weight가 작을 수록 input이 0에 가까워져 더욱 더 간단한 model을 만들 수 있음을 의미한다.
Dropout에 비해 단순히 값을 감소시키는 것으로 구현되므로, compuation cost가 적다.
with L2 Regularization
- : weight decay
with L1 Regularization
- : weight decay.
- : 가 양수면 1, 음수면 -1을 반환한다.
Bayesian interpretation
bayesian 관점에서도 해석해볼 수 있는데, 이는 곧 Regularization의 penalty를 포함하였을 때의 Error를 작게 만드는 가중치를 찾는 것으로 볼 수 있다.
이 때, 와 같은 정규 분포를 따른다고 가정하면,